NumPy, SciPy, Pandas 相关性计算及可视化

您所在的位置：网站首页 › python kendall相关系数 › NumPy, SciPy, Pandas 相关性计算及可视化

NumPy, SciPy, Pandas 相关性计算及可视化

2023-11-12 07:13| 来源: 网络整理| 查看: 265

相关性系数数量化了一个数据集的变量或特征之间的关联。这些统计数据对科学和技术具有高度的重要性，Python有很好的工具，诸如SciPy、NumPy和Pandas，都可以用来计算，并且它们的相关方法是快速、全面和有据可查的。

什么是皮尔逊、斯佩尔曼和肯德尔相关性系数

如何使用SciPy、NumPy和Pandas的相关性函数

如何用Matplotlib实现数据、回归线和相关矩阵的可视化

相关性等级

相关性等级比较了与两个变量或数据集特征相关的数据的等级或排序。如果排序相似，那么就是强相关、正相关、高相关。然而，如果排序接近反向，那么就是强相关、负相关、低相关。换句话说，等级相关只关注数值的顺序，而不关注数据集的特定数值。

为了说明线性相关和等级相关的区别，请看下图。

左边的图在和之间有一个完美的正线性关系，所以。中间的图显示正相关，右边的图显示负相关。然而，它们都不是线性函数，所以与或不同。

当只看排序或等级时，这三种关系都是完美的！左边和中间的图显示了较大的值总是对应较大的值的观察结果。这就是完美的正相关关系。右边的图显示了相反的情况，即完美的负相关关系。

Spearman相关系数

两个特征之间的Spearman相关系数是它们的等级值之间的Pearson相关系数。它的计算方法与Pearson相关系数相同，但考虑到了它们的rank而不是它们的数值。它通常用希腊字母rho(ρ)表示，称为Spearman's rho。

假设有两个n元组，和，其中，是作为对应值的观察值对。我们可以用与Pearson系数相同的方法来计算Spearman相关系数 ρ。使用rank而不是和的实际值。

以下是关于Spearman相关系数的一些重要事实。

它可以在 ρ 的范围内取一个实数。

它的最大值 ρ 对应于和之间存在单调增长函数的情况。换句话说，更大的值对应更大的值，反之亦然。

它的最小值 ρ 对应于和之间存在单调递减函数的情况。换句话说，较大的x值对应较小的值，反之亦然。

我们可以在Python中计算Spearman's rho，方法与计算Pearson's r非常相似。

Kendall相关系数

再次开始考虑两个n元组，和。每一个对是一个单一的观察。一对观察值和，其中＜，将是三种情况之一。

如果或是一致的。

如果或不协调

如果在中出现平局或在中出现平局，都不会出现。

Kendall相关系数比较了数据的一致和不一致对的数量。这个系数是基于协和对和不协和对的数量相对于对数量的差异。它通常用希腊字母 τ 表示，并称为Kendall's tau。

根据scipy.stats的官方文档[12]，Kendall相关系数的计算方法是 τ⁺⁺ˣ⁺ʸ，其中。

⁺ 是协和对的数量

是不和谐对的数量

ˣ 是仅在x中存在的平局数

ʸ 是仅在y中的平局数

如果在和中都出现了平局，那么它就不包括在 ˣ 或 ʸ 中。

维基百科关于Kendall相关系数的页面给出了以下表达式：

τᵢⱼᵢⱼ

符号函数在时为，时为，时为。

关于Kendall相关系数的一些重要事实如下。

它可以在 τ 的范围内取一个实值。

它的最大值 τ 对应于x和y中的相应数值的rank相同的情况。换句话说，所有的配对都是一致的。

它的最小值 τ，对应于x中的rank与y中的rank相反的情况，换句话说，所有配对都是不和谐的。

我们可以在Python中计算Kendall's tau，就像我们计算Pearson's r一样。

SciPy 实现 Rank

我们可以使用scipy.stats来确定一个数组中每个值的rank。首先导入库并创建NumPy数组。

import numpy as np import scipy.stats x = np.arange(10, 20) y = np.array([2, 1, 4, 5, 8, 12, 18, 25, 96, 48]) z = np.array([5, 3, 2, 1, 0, -2, -8, -11, -15, -16])

数据已经准备好了，可以用scipy.stats.rankdata()[13]确定NumPy数组中每个值的rank。

>>> scipy.stats.rankdata(x) array([ 1., 2., 3., 4., 5., 6., 7., 8., 9., 10.]) >>> scipy.stats.rankdata(y) array([ 2., 1., 3., 4., 5., 6., 7., 8., 10., 9.]) >>> scipy.stats.rankdata(z) array([10., 9., 8., 7., 6., 5., 4., 3., 2., 1.])

数组和是单调的，所以它们的rank也是单调的。中最小的值是1，它对应的rank是1。第二个最小的值是2，它对应于rank2。最大的值是96，它对应于最大的rank10，因为数组里有10个项目。

rankdata()有一个可选的参数方法。它告诉Python在数组中有并列的情况下该怎么做 (如果两个或多个值相等)。默认情况下，它为它们分配rank的平均值。

scipy.stats.rankdata([8, 2, 0, 2]) array([4. , 2.5, 1. , 2.5])

有两个值为2的元素，它们的rank为2.0和3.0。值为0的rank为1.0，值为8的rank为4.0。那么，两个值为2的元素将得到相同的rank2.5。

rankdata()将nan值视为大值。

>>> scipy.stats.rankdata([8, np.nan, 0, 2]) array([3., 4., 1., 2.])

在这种情况下，np.nan的值对应于最大的rank4.0。也可以用np.argsort()[14]获得rank。

np.argsort(y) + 1 array([ 2, 1, 3, 4, 5, 6, 7, 8, 10, 9])

argsort()返回数组项在排序后的数组中的索引。这些索引是基于零的，所以需要在所有的索引上加1。

NumPy和SciPy实现Rank相关性

可以用scipy.stats.spearmanr()计算 Spearman 相关系数。

>>> result = scipy.stats.spearmanr(x, y) >>> result SpearmanrResult(correlation=0.9757575757575757, pvalue=1.4675461874042197e-06) >>> result.correlation 0.9757575757575757 >>> result.pvalue 1.4675461874042197e-06 >>> rho, p = scipy.stats.spearmanr(x, y) >>> rho 0.9757575757575757 >>> p 1.4675461874042197e-06

spearmanr()返回一个包含Spearman相关系数和p值的对象。可以通过两种方式访问特定的值。

使用点符号(result.correlation和result.pvalue)。

使用Python解包(rho, p = scipy.stats.spearmanr(x, y))。

如果向spearmanr()提供包含x和y相同数据的二维数组xy，我们可以得到同样的结果。

>>> xy = np.array([[10, 11, 12, 13, 14, 15, 16, 17, 18, 19], ... [2, 1, 4, 5, 8, 12, 18, 25, 96, 48]]) >>> rho, p = scipy.stats.spearmanr(xy, axis=1) >>> rho 0.9757575757575757 >>> p 1.4675461874042197e-06

的第一行是一个特征，而第二行是另一个特征。我们可以修改这一点。可选的参数axis决定了是列(axis=0)还是行(axis=1)代表特征。默认行为是行是观测值，列是特征。

另一个可选的参数nan_policy定义了如何处理nan值。它可以取三个值中的一个。

如果输入中存在一个nan值，'propagate' 返回nan。这是默认的行为。

'raise' 如果在输入中存在一个nan值，会引发ValueError。

'omit' 忽略有nan值的观测值。

如果提供一个有两个以上特征的二维数组，那么将得到相关矩阵和p值矩阵。

>>> xyz = np.array([[10, 11, 12, 13, 14, 15, 16, 17, 18, 19], ... [2, 1, 4, 5, 8, 12, 18, 25, 96, 48], ... [5, 3, 2, 1, 0, -2, -8, -11, -15, -16]]) >>> corr_matrix, p_matrix = scipy.stats.spearmanr(xyz, axis=1) >>> corr_matrix array([[ 1. , 0.97575758, -1. ], [ 0.97575758, 1. , -0.97575758], [-1. , -0.97575758, 1. ]]) >>> p_matrix array([[6.64689742e-64, 1.46754619e-06, 6.64689742e-64], [1.46754619e-06, 6.64689742e-64, 1.46754619e-06], [6.64689742e-64, 1.46754619e-06, 6.64689742e-64]])

相关矩阵中的数值-1表明，第一和第三特征具有完美的负等级相关性，即第一行中较大的数值总是对应于第三行中较小的数值。

我们可以用kendalltau()获得Kendall相关系数。

>>> result = scipy.stats.kendalltau(x, y) >>> result KendalltauResult(correlation=0.911111111111111, pvalue=2.9761904761904762e-05) >>> result.correlation 0.911111111111111 >>> result.pvalue 2.9761904761904762e-05 >>> tau, p = scipy.stats.kendalltau(x, y) >>> tau 0.911111111111111 >>> p 2.9761904761904762e-05

kendalltau()的工作原理与spearmanr()很相似。它接收两个一维数组，有可选参数nan_policy，并返回一个包含相关系数和p值的对象。

然而，如果只提供一个二维数组作为参数，那么kendalltau()将引发一个TypeError。如果传入两个相同形状的多维数组，那么它们将在计算前被压扁。

Pandas实现Rank相关性

可以用Pandas计算Spearman和Kendall相关系数。导入pandas并创建一些Series和DataFrame实例。

>>> import pandas as pd >>> x, y, z = pd.Series(x), pd.Series(y), pd.Series(z) >>> xy = pd.DataFrame({'x-values': x, 'y-values': y}) >>> xyz = pd.DataFrame({'x-values': x, 'y-values': y, 'z-values': z})

现在有了这些Pandas对象，可以使用.corr()和.corrwith()，就像计算皮尔逊相关系数时那样。只需要用可选的参数方法指定所需的相关系数，默认为'pearson'。

要计算Spearman's rho可通过设置参数method=spearman。

>>> x.corr(y, method='spearman') 0.9757575757575757 >>> xy.corr(method='spearman') x-values y-values x-values 1.000000 0.975758 y-values 0.975758 1.000000 >>> xyz.corr(method='spearman') x-values y-values z-values x-values 1.000000 0.975758 -1.000000 y-values 0.975758 1.000000 -0.975758 z-values -1.000000 -0.975758 1.000000 >>> xy.corrwith(z, method='spearman') x-values -1.000000 y-values -0.975758 dtype: float64

如果想要得到 Kendall's tau，那么设置参数method=kendall。

>>> x.corr(y, method='kendall') 0.911111111111111 >>> xy.corr(method='kendall') x-values y-values x-values 1.000000 0.911111 y-values 0.911111 1.000000 >>> xyz.corr(method='kendall') x-values y-values z-values x-values 1.000000 0.911111 -1.000000 y-values 0.911111 1.000000 -0.911111 z-values -1.000000 -0.911111 1.000000 >>> xy.corrwith(z, method='kendall') x-values -1.000000 y-values -0.911111 dtype: float64

正如我们所看到的，与SciPy不同，我们可以使用单一的二维数据结构(数据帧)。

NumPy, SciPy, Pandas 相关性计算及可视化

NumPy, SciPy, Pandas 相关性计算及可视化

今日新闻

推荐新闻